14wk: 이산형과 연속형의 통합

Author

김보람

Published

June 9, 2023

해당 강의노트는 전북대학교 최규빈교수님 AP2023 자료임

일반화된 밀도함수

- 라돈니코딤 정리는 꼭 르벡메져일 경우에만 성립하는 것이 아니다.

이산확률변수

- 예제1 – 베르누이 (with 카운팅메져)

아래와 같은 함수를 고려하자.

\[F_X(x) = \begin{cases} 0 & x<0 \\ \frac{1}{2} & 0 \leq x <1 \\ 1 & x \geq 1 \end{cases}\]

이제 \(S=\{0,1\}\), \({\cal S}=\{\emptyset, \{0\},\{1\},\{1,2\}\}\)로 구성된 measurable space \((S,{\cal S})\)를 생각하자. 함수 \(\tilde{\mu}_X: {\cal S} \to [0,1]\)를 아래와 같이 정의하면

  • \(\tilde{\mu}_X(\emptyset)= 0\)
  • \(\tilde{\mu}_X(\{0\})= \frac{1}{2}\)
  • \(\tilde{\mu}_X(\{1\})= \frac{1}{2}\)
  • \(\tilde{\mu}_X(\{0,1\})= 1\)

함수 \(\tilde{\mu}_X\)\((S,{\cal S})\)에서의 메져가 되며, 이것은 \(F_X\)에 대응하는 분포 \({\mu}_X\)와 같은 역할을 한다. 이제 measurable space \((S,{\cal S})\)에 대하여 아래와 같은 함수 \(\#: {\cal S} \to \mathbb{R}\)을 고려하자.

  • \(\#(\emptyset)=0\)
  • \(\#(\{0\})= 1\)
  • \(\#(\{1\})= 1\)
  • \(\#(\{0,1\})= 2\)

\(\#(A)=\)집합 A의 원소수

이때 함수 \(\#\)\((S,{\cal S})\) 에서의 메져가 되며, 이러한 메져를 특별히 카운팅메져(counting measure) 라고 한다. 이제 아래의 함수 \(f_X:S \to \mathbb{R}\)를 고려하자.

  • \(f_X(0)=\frac{1}{2}\)
  • \(f_X(1)=\frac{1}{2}\)

함수 \(f_X\)는 카운팅메져 \(\#\)에 대한 \(\tilde{\mu}_X\)의 라돈니코딤 도함수임을 보여라.

1. \(\sigma\)-finite 확인

2. 절대연속 확인

3. f가측함수 확인

4. 라돈니코딤 도함수 조건 확인

(해설)

  1. \(\tilde{\mu}_X\), \(\#\)는 모두 \((S,{\cal S})\) 에서의 \(\sigma\)-finite 메져이다.

\(\tilde{\mu}_X(S)=1\), \(\#(S)=2\), 전체집합을 쟀는데 finite하므로

  1. \(\tilde{\mu}_X << \#\)이 성립한다. 따라서 적당한 \({\cal S} - {\cal R}^+\) measurable function이 존재하여 라돈니코딤 도함수의 조건을 만족함을 알 수 있다.
  2. 우리가 생각하는 후보는 \(f_X\)인데 이것이 만약에 (1) \({\cal S} - {\cal R}^+\) 가측함수이고 (2) 라돈니코딤 도함수의 조건1을 만족한다면 \(f_X\)는 카운팅메져 \(\#\)에 대한 \(\tilde{\mu}_X\)의 거의 유일한 (w.r.t. \(\#\)) 밀도함수라고 주장할 수 있다.
  3. \(f_X\)\({\cal S} \to {\cal R}^+\) 가측함수이다. (simple function)

\(f_X\)의 치역이 유한개의 원소로 이루어져 있으면 simple function

  1. \(\forall B \in {\cal S}: \tilde{\mu}(B)=\int_B f_X d\#=\sum_{x \in B} f_X(x)\) 를 만족한다.

- 예제1에서 제안한 \(f_X\)의 경우 어떠한 의미에서는 밀도함수라고 해석할 수 있다.

  1. 학부수준의 이해: 이산형확률변수는 확률질량함수를 가지며, 연속형확률변수는 확률밀도함수를 가진다.
  2. 대학원수준의 이해: 이산형확률변수의 밀도함수는 \(\#\)에 대한 라돈니코딤 도함수로 해석할 수 있으며, 연속형확률변수의 밀도함수는 \(\lambda\)에 대한 라돈니코딤 도함수로 해석할 수 있다.

- 찝찝한점1: 예제1에서는 왜 \(\mu_X\) 대신에 \(\tilde{\mu}_X\)를 사용했을까?

사실 예제1에서의 \(\tilde{\mu}_X\)\(F_X\)에 대응하는 distribution \(\mu_X\)와 유사하지만 미세한 차이가 있음

\(\mu_X:{\cal R} \to [0,1]\)

  • \(\mu_X(\emptyset)=0\)
  • \(\mu_X(\{0\})=\frac{1}{2}\)
  • \(\mu_X(\{1\})=\frac{1}{2}\)
  • \(\mu_X(\{0,1\})=1\)
  • \(\mu_X(B)=0\) , \(B \in {\cal R} - \{0,1\} - \{0\} - \{1\}\)

\(\tilde{\mu}_X:{\cal S} \to [0,1]\)

  • \(\tilde{\mu}_X(\emptyset)= 0\)
  • \(\tilde{\mu}_X(\{0\})= \frac{1}{2}\)
  • \(\tilde{\mu}_X(\{1\})= \frac{1}{2}\)
  • \(\tilde{\mu}_X(\{0,1\})= 1\)

- 찝찝한점2: 예제1에서는 왜 \((\mathbb{R},{\cal R})\)를 고려하지 않고 \((S,{\cal S})\)를 고려하였을까?

이건 사실 \(\mu_X\)대신 \(\tilde{\mu}_X\)를 쓴 이유와 연관이 있다. \(\mu_X\)\({\cal R}\)에서 정의되고 \(\tilde{\mu}_X\)\({\cal S}\)에서 정의되는데 예제에서는 \(\mu_X\)대신 \(\tilde{\mu}_X\)를 썻기 때문에 자연스럽게 \((\mathbb{R}, {\cal R})\) 대신에 \((S,{\cal S})\)를 고려하게 되는 것

- 찝찝한점의 해결:

  1. 라돈니코딤 도함수의 존재에 필요한 조건 중 하나는 라돈니코딤 도함수를 정의하는 두개의 메져2 \(\sigma\)-finite measure이어야 한다는 것임.
  2. \(\mu_X,\lambda\) on \((\mathbb{R},{\cal R})\)을 고려 \(\Rightarrow\) \(\mu_X,\lambda\) 은 모두 \((\mathbb{R},{\cal R})\)에서 \(\sigma\)-finite 조건을 만족함.
  3. \(\tilde{\mu}_X,\#\) on \((S,{\cal S})\)을 고려 \(\Rightarrow\) \(\tilde{\mu}_X,\#\) 은 모두 \((S,{\cal S})\)에서 \(\sigma\)-finite 조건을 만족함.
  4. \(\mu_X, \#\) on \((\mathbb{R},{\cal R})\)을 고려 \(\Rightarrow\) \(\mu_X\)\((\mathbb{R},{\cal R})\)에서 \(\sigma\)-finite 하지만 \(\#\)\((\mathbb{R},{\cal R})\)에서 \(\sigma\)-finite 하지 않음.

따라서, \((\mathbb{R},{\cal R})\)에서의 두 메져 \(\mu_X,\lambda\)를 고려하거나, \((S,{\cal S})\)에서의 두 메져 \(\tilde{\mu}_X,\#\) 를 고려해야 라돈니코딤 도함수를 따져볼 수 있다.

\(\#\)는 (\(\mathbb{N},2^{\mathbb{N}})\)에서 \(\sigma\)-finite msr

모티브: 그런데 \((S,{\cal S})\) 말고 그냥 \((\mathbb{R},{\cal R})\)에서 적당히 \(\mu_X, \tilde{\#}\)를 고려할 수는 없을까?

pmf = \(\frac{d\mu_X}{d \tilde{\#}}\)

- 예제2 – 베르누이 (with 디렉메져)

아래와 같은 함수를 고려하자.

\[F_X(x) = \begin{cases} 0 & x<0 \\ \frac{1}{2} & 0 \leq x <1 \\ 1 & x \geq 1 \end{cases}\]

\(F_X\)에 대응하는 분포 \(\mu_X:{\cal R} \to [0,1]\)를 고려하자.

  • \(\mu_X(\emptyset)=0\)
  • \(\mu_X(\{0\})=\frac{1}{2}\)
  • \(\mu_X(\{1\})=\frac{1}{2}\)
  • \(\mu_X(\{0,1\})=1\)
  • \(\mu_X(B)=0\) , \(B \in {\cal R} - \{0,1\} - \{0\} - \{1\}\)

그리고 아래와 같은 메져를 고려하라. \(\#_X: {\cal R} \to \mathbb{N}\) 을 고려하자.

  • \(\#_X(\emptyset)=0\)
  • \(\#_X(\{0\})=1\)
  • \(\#_X(\{1\})=1\)
  • \(\#_X(\{0,1\})=2\)
  • \(\#_X(B)=0\), \(B \in {\cal R}-\{0,1\}-\{0\}-\{1\}\)

이때 함수 \(\#_X:{\cal R} \to \mathbb{N}\)\((\mathbb{R},{\cal R})\) 에서의 \(\sigma\)-finite 메져가 된다.

\(\#_X(\mathbb{R})= \#_X(\{0,1\}) + \#_X(\mathbb{R})-\{0,1\}=2+0=2\) :finite msr~

또한 \(\mu_X << \#_X\) 가 성립한다.3 이제 아래의 함수 \(f_X:\mathbb{R} \to \mathbb{R}^+\)를 고려하자.

\[f_X(x)=\begin{cases} \frac{1}{2} & x=0,1 \\ 0 & o.w. \end{cases}\]

함수 \(f_X\)\({\cal R}-{\cal R}^+\) 가측함수이고 (simple function 이므로)

\[\forall B \in {\cal R}: \mu_X(B)= \int_B fd\#_X\]

를 만족한다.

\(\mu_X(\{0\})=\int_{\{0\}}fd\#_X = f(0) \times \#_X(\{0\})=\frac{1}{2} \times 1 = \frac{1}{2}\) 와 같이 다 성립

(예시) 만약 \(B=(-\infty,0] \cup [1,\infty)\)에 대하여 \(\mu_X(B) = \int_B fd\#_X\)를 만족하는지 따지자.

\(B=(-\infty, 0) \cup \{0\} \cup \{1\} \cup (1,\infty) = B_1 \uplus \{0\} \uplus \{1\} B_2\)

LHS = \(\mu_X(\{0\})+\mu_X(\{1\})\)

RHS = \(f(0) \#_X(\{0\}) + f(1) \#_X(\{1\})\)

LHS=RHS

따라서

\[f_X=\frac{d\mu_X}{d\#_X}\]

이다. 즉 \(f_X\)\(\#_X\)에 대한 \(\mu_X\)의 라돈니코딤 도함수로 해석할 수 있다.

- 정의 (디렉메져): 가측공간 \((\mathbb{R}, {\cal R})\)에서 디렉메져는

\[\forall B \in {\cal R}: ~\delta_{x}(B)=\mathbb{1}_B(x)=\mathbb{1}(x \in B)\]

로 정의되는 메져이다.

- 디랙메져의 표현법에 따르면 예제2의 경우 \(\#_X := \delta_0 + \delta_1\) 로 표현할 수 있다. 여기에서 \(\delta_x\)\((\mathbb{R},{\cal R})\)에서의 디랙메져이다.

- 꼭 베르누이와 같은 상황이 아니라도 임의의 이산확률변수 \(X\)에 대한 분포 \(\mu_X\)를 dominating하는 적절한 \(\sigma\)-finite한 메져 \(\#_X\)\((\mathbb{R}, {\cal R})\)에서 정의할 수 있다. 예를들면 주사위예제의 경우

\[\#_X = \delta_1+\delta_2+\delta_3+\delta_4+\delta_5+\delta_6\]

와 같은 방식으로 정의할 수 있다. 즉 임의의 이산확률변수 \(X\)에 대하여 아래를 만족하는 \(\#_X\)를 항상 잡을 수 있다.

  1. \(\#_X\) is \(\sigma\)-finite
  2. \(\mu_X << \#_X\)

따라서 \(\frac{d\mu_X}{d\#_X}\)는 언제나 잘 정의되며 이는 우리가 알고 있는 pmf의 정의와 일치한다.

- 결국 이산형 확률변수의 밀도함수를 설명하는 방법은 크게 3가지가 있는 셈이다.

  1. 이산형확률변수는 밀도함수가 없다.
  2. 이산형확률변수의 밀도함수는 \(\frac{d}{d\#}\tilde{\mu}_X\) 으로 정의할 수 있다.
  3. 이산형확률변수의 밀도함수는 \(\frac{d}{d\#_X}\mu_X\) 으로 정의할 수 있다.

설명1,2,3은 각각의 장단점이 있다.

설명1: 라돈니코딤 도함수에 대한 이해가 없어도 된다는 점에서 장점이 있다. (그래서 학부수준에서는 가장 일반적으로 사용하는 설명)

설명2: 연속형은 르벡메져에 대한 라돈니코딤 도함수, 이산형은 카운팅메져에 대한 라돈니코딤 도함수로 구분하여 설명할 수 있다는 점에서는 클리어하지만 분포함수 \(\mu_X\)를 활용하지 못한다는 점과 그에 따라서 이산형 확률변수의 support \(S\)에 맞추어 가측공간 \((S,{\cal S})\)를 재설정해야한다는 불편함이 있다. 이러한 방식으로 유도되는 베르누이 분포의 pmf는 아래와 같이 정의된다.

  • \(f_X(x)=p_X(x)=\begin{cases} 1-p & x=0 \\ p & x=1 \end{cases}\)

설명3: 연속형은 르벡메져에 대한 라돈니코딤 도함수, 이산형은 카운팅메져에 대한 라돈니코딤 도함수로 구분하여 설명할 수는 없으며 확률변수 \(X\)에 따라서 \(\#_X\)를 그때 그때 정의해야하는 지저분함이 있다. 하지만 분포함수 \(\mu_X\)를 활용할 수 있고 가측공간 \((\mathbb{R},{\cal R})\)를 그대로 활용한다는 장점이 있다. 이러한 방식으로 유도되는 베르누이분포의 pmf는 아래와 같이 정의된다.

  • \(f_X(x)=p_X(x)=\begin{cases} 1-p & x=0 \\ p & x=1 \\ 0 & o.w. \end{cases}\)

여기에서 \(p_X(x)\)는 학부때 배우는 pmf

혼합형확률변수

- 예제1: 아래와 같은 분포함수 \(F_X\)를 고려하자.

\[F_X(x) = \begin{cases} 0 & x< 0 \\ \frac{1}{2} & 0 \leq x < \frac{1}{2} \\ x & \frac{1}{2} \leq x \leq 1 \\ 1 & x>1 \end{cases}\]

이 분포함수는 동전을 던져 앞면이 나오면 \(X=0\)으로 결정하고 뒷면이 나오면 균등분포 \([0.5,1]\)에서 확률변수 \(X\)를 생성하는 실험을 상상하면 쉽게 이해할 수 있다. 아래와 같은 함수

\[f_X(x) = \begin{cases} \frac{1}{2} & x=0 \\ 1 & \frac{1}{2} \leq x \leq 1 \\ 0 & o.w. \end{cases}\]

\(F_X\)의 밀도함수가 될 수 있음을 설명하라.

(해설)

  1. \(\nu:= \lambda + \delta_0\) 이라고 정의하자.

\(\nu:= \lambda + \delta_0\) , \(\nu\) is \(\sigma\)-finite on \((\mathbb{R}, \cal R)\)

pf. \(A_n = (-n, n)\)

\(\nu(A_n) = \lambda(A_n) + \delta(A_n)\)

\(\therefore \forall n\in \mathbb{N}, \nu(A_n) = 2n+1 < \infty\)

그리고 \(\cup_{n=1}^\infty A_n = \mathbb{R}\)

  1. \(\nu\)\(\sigma\)-finite 하며 \(\mu_X << \nu\) 를 만족한다.
  2. 함수 \(f_X(x)\)는 가측함수이며 (simple function) \(\forall B \in {\cal R}\)에 대하여 아래를 만족한다.

\[\mu_X(B)=\int_B f_X d\nu =\int_B f_X d(\lambda+\delta_0)=\int_B f_X d\lambda + \int_B f_X d\delta_0\]

\(B = (-\infty,x]\)와 같은 꼴에서만 성립함을 보이고 나머지는 \(\pi\)-\(\lambda\) thm 쓰면 되죠?

위의 3에 대한 추가설명.

결국 임의의 \(B=(-\infty,x]\)와 같은 꼴에서 \(\mu_X(B) = \int_Bf_Xd\lambda + \int_B f_Xd\delta_0\) 임을 보이면 된다.

편의상 아래와 같이 정의하자.

  • \(LHS = \mu_X(B)\)
  • \(RHS_1 = \int_B f_Xd\lambda\)
  • \(RHS_2 = \int_B f_Xd\delta_0\)

case1: \(x < 0\)

  • \(LHS = F_X(x)=0\)
  • \(RHS_1 = 0\)
  • \(RHS_2 = 0\)

case2: \(x = 0\)

  • \(LHS = F_X(x)=\frac{1}{2}\)
  • \(RHS_1 = \int_{-\infty}^0f_X(x)dx = 0\)
  • \(RHS_2 = \int_{\{0\}}f_Xd\delta_0 = f_X(0)\delta_0(\{0\}) = \frac{1}{2}\)

case3: \(0<x< \frac{1}{2}\)

  • \(LHS = F_X(x)=\frac{1}{2}\)
  • \(RHS_1 = \int_{-\infty}^{0}f_X(x)dx+ \int_{0}^{x}f_X(x)dx= 0\)
  • \(RHS_2 = \int_{\{0\}}f_Xd\delta_0 = f_X(0)\delta_0(\{0\}) = \frac{1}{2}\)

case4: \(\frac{1}{2}<x< 1\)

  • \(LHS = F_X(x)=x\)
  • \(RHS_1 =\int_{-\infty}^{1/2}f_X(x)dx+ \int_{1/2}^xf_X(x)dx = \int_{1/2}^xf_X(x)dx=\int_{1/2}^xdx= x-\frac{1}{2}\)
  • \(RHS_2 = \int_{\{0\}}f_Xd\delta_0 = f_X(0)\delta_0(\{0\}) = \frac{1}{2}\)

case5: \(x>1\)

  • \(LHS = F_X(x)=1\)
  • \(RHS_1 =\int_{-\infty}^{1/2}f_X(x)dx+ \int_{1/2}^{1}f_X(x)dx = \int_{1/2}^1f_X(x)dx=\int_{1/2}^1dx= 1-\frac{1}{2}\)
  • \(RHS_2 = \int_{\{0\}}f_Xd\delta_0 = f_X(0)\delta_0(\{0\}) = \frac{1}{2}\)

르벡분해정리

- Thm: 분포함수의 정의를 만족하는 임의의 \(F\)는 항상 아래와 같이 분해가능하다.

\[F = F_{ac}+F_{pp}+F_{sing}\]

여기에서 \(F_{ac}\)는 르벡메져에 대하여 절대연속이고 \(F_{pp}\)는 카운팅메져에 대하여 절대연속이다. 따라서 \(F_{ac}\)\(F_{pp}\)는 각각 르벡메져와 카운팅메져에 대응하는 밀도함수가 존재한다. \(F_{sing}\)는 칸토어분포와 같이 밀도함수가 존재하지 않는 경우이다.

여기에서 \(ac\)는 absolutely continuous 의 약자이고, \(pp\) pure point 의 약자이며 \(sing\)은 singular continuous 약자이다.

- 의미: \(F_{ac}\)는 우리가 일반적으로 생각하는 singular하지 않은 연속함수를 상상하면 된다.4 \(F_{pp}\)는 완벽한 불연속이며 오직 jump를 통해서만 증가하는 함수라 생각하면 된다. 즉 우리가 익숙한 이산형확률변수의 cdf를 상상하면 된다.

- 이론: \(F_{pp}\)는 기껏해야 countable한 불연속점을 가진다. (jump 하는 point는 countable이라는 의미, 결국 이산형확률변수의 support는 countable이라는 의미)

- 이론: 분포함수 정의를 만족하는 임의의 \(F\)가 아래와 같다면

\[F=F_{ac}\]

\(F\)에 대응하는 연속형 확률변수 \(X\)가 존재하고 그에 대응하는 pdf가 존재한다.

- 이론: 분포함수 정의를 만족하는 임의의 \(F\)가 아래와 같다면

\[F=F_{pp}\]

\(F\)에 대응하는 이산형 확률변수 \(X\)가 존재하고 그에 대응하는 (일반화된) pdf 혹은 pmf가 존재한다.

- 이론: 분포함수 정의를 만족하는 임의의 \(F\)가 아래와 같다면

\[F=F_{ac}+F_{pp}\]

\(F\)에 대응하는 혼합형 확률변수 \(X\)가 존재하고 그에 대응하는 (일반화된) pdf가 존재한다.

기대값

- 예제1: \((\Omega,{\cal F},P)\)를 확률공간이라고 하고 \(\Omega=\{H,T\}\), \({\cal F}=2^\Omega\), \(P(\{H\})=P(\{T\})=\frac{1}{2}\)라고 하자.5 확률변수 \(X(H)=0\), \(X(T)=1\)를 정의하자. 이 확률변수의 기대값 \(\mathbb{E}(X)\)를 계산하여 보자.

\(X\) \(X=0\) \(X=1\)
\(P(X=x)\) \(\frac{1}{2}\) \(\frac{1}{2}\)

(풀이)

아래와 같이 계산할 수 있다. (고등학교 수준)

\[\mathbb{E}(X)= 0 \times \frac{1}{2} + 1\times \frac{1}{2}\]

이를 다른표현으로 써보면

  1. \(\mathbb{E}(X)= 0 \times (P\circ X^{-1})(\{0\}) + 1\times (P\circ X^{-1})(\{1\})\)
  2. \(\mathbb{E}(X)= 0 \times \mu_X(\{0\}) + 1\times \mu_X(\{1\})\)
  3. \(\mathbb{E}(X)= \sum_{x=0}^{1} x \times \mu_X(\{x\})\)
  4. \(\mathbb{E}(X)= \int_{\mathbb{R}} x d\mu_X:=\int_{\mathbb{R}}xdF_X\)
  5. \(\mathbb{E}(X)= \int_{\mathbb{R}} x \frac{d\mu_X}{d \#_X}d\#_X\)
  6. \(\mathbb{E}(X)= \int_{\mathbb{R}} x p_X(x) d\#_X\)
  7. \(\mathbb{E}(X)= \int_{\{0,1\}} x p_X(x) d\#_X\)
  8. \(\mathbb{E}(X)= \sum_{x=0}^{1} xp_X(x)\)

또는 아래와 같이 볼 수 도 있다.

  1. \(\mathbb{E}(X)= 0 \times (P\circ X^{-1})(\{0\}) + 1\times (P\circ X^{-1})(\{1\})\)
  2. \(\mathbb{E}(X)= X(H) \times P(\{H\}) + X(T)\times P(\{T\})\)
  3. \(\mathbb{E}(X)= \int X dP = \int_{\Omega} X dP = \int_{\omega \in \Omega}X(\omega)dP(\omega)\)
위의 2 \(\to\) 3에 대한 추가설명.

아래와 같은 함수 \(f(x)\)를 다시 고려하자.

\[f(x) = \begin{cases} 1 & \mathbb{Q} \cap [0,1] := A_1 \\ 0 & \mathbb{Q}^c \cap [0,1]: =A_2 \end{cases}\]

이 함수의 밑면적을 계산하기 위해서

  • \(\int f \lambda = 1 \times \lambda(A_1) + 0 \times \lambda(A_2)\)

와 같은 계산을 정의하였다. 이를 다시 평이한 언어로 표현하면

  • 적분값 = \(\big(\) \(x \in A_1\)에서의 함수값 \(f(x)\) \(\big)\) \(\times\) \(\big(\) \(A_1\)\(\lambda\)로 잰 길이\(\big)\) + \(\big(\) \(x \in A_2\)에서의 함수값 \(f(x)\)\(\big)\) \(\times\) \(\big(\) \(A_2\)\(\lambda\)로 잰 길이\(\big)\)

와 같은 방식으로 서술할 수 있다. 이제 가측함수 \(f\)에 대응하는 가측함수 \(X\)와, 메져 \(\lambda\)에 대응하는 메져 \(P\)를 고려하자. 즉

  1. \(f: [0,1] \to \mathbb{R}\) 인 measurable function such that \(f(x) = \begin{cases} 1 & \mathbb{Q} \cap [0,1] := A_1 \\ 0 & \mathbb{Q}^c \cap [0,1]: =A_2 \end{cases}\)
  2. \(X: \Omega \to \mathbb{R}\) 인 measurable function such that \(X(\omega) = \begin{cases} 1 & \omega \in \{H\} := A_1 \\ 0 & \omega \in \{T\}: =A_2 \end{cases}\)
  3. \(\lambda: {\cal R} \cap [0,1] \to [0,\infty]\) 는 measure on \(([0,1], {\cal R} \cap [0,1])\).
  4. \(P : {\cal F} \to [0,1]\) 는 measure on \((\Omega, {\cal F})\).

에서 1대신 2를, 3대신 4를 생각하자는 의미이다. 그렇다면

  • 적분값 = \(\big(\) \(x \in A_1\)에서의 함수값 \(f(x)\) \(\big)\) \(\times\) \(\big(\) \(A_1\)\(\lambda\)로 잰 길이\(\big)\) + \(\big(\) \(x \in A_2\)에서의 함수값 \(f(x)\)\(\big)\) \(\times\) \(\big(\) \(A_2\)\(\lambda\)로 잰 길이\(\big)\)

은 아래와 같이 대응하여 바꿀 수 있고

  • 적분값 = \(\big(\) \(\omega \in A_1\)에서의 함수값 \(X(\omega)\) \(\big)\) \(\times\) \(\big(\) \(A_1\)\(P\)로 잰 길이\(\big)\) + \(\big(\) \(\omega \in A_2\)에서의 함수값 \(X(\omega)\)\(\big)\) \(\times\) \(\big(\) \(A_2\)\(P\)로 잰 길이\(\big)\)

이것은 다시

  • 적분값 = \(X(H)\times P(\{H\}) + X(T)\times P(\{T\})\)

로 쓸 수 있다. 아래의 수식

  • \(\int f \lambda = 1 \times \lambda(A_1) + 0 \times \lambda(A_2)\)

에 대응하여 다시 상기하면

  • \(\int X dP = X(H)\times P(\{H\}) + X(T)\times P(\{T\})\)

로 쓸 수 있다.

- 예제2: \((\Omega,{\cal F},P)\)를 확률공간이라고 하고 \(\Omega=[0,2\pi)\), \({\cal F}={\cal R} \cap [0,2\pi)\)6, \(P([0,x))=\frac{x}{2\pi}\)라고 하자.7 확률변수 \(X(\omega)=\omega\)에 대한 기대값 \(\mathbb{E}(X)\)를 계산하여 보자.

(풀이)

아래와 같이 계산할 수 있다. (고등학교 수준)

\[\mathbb{E}(X)=\int_0^{2\pi} x \frac{1}{2\pi}dx\]

이는 아래와 같이 변형할 수 있다.

  1. \(\mathbb{E}(X)= \int_0^{2\pi}xf_X(x)dx\), where \(f_X(x)=\frac{1}{2\pi}\).
  2. \(\mathbb{E}(X)= \int_{\mathbb{R}}xf_Xd\lambda\).
  3. \(\mathbb{E}(X)= \int_{\mathbb{R}}x\frac{d\mu_X}{d\lambda}d\lambda\).
  4. \(\mathbb{E}(X)= \int_{\mathbb{R}}xd\mu_X:=\int_{\mathbb{R}}xdF_X\).

혹은 아래와 같이 변형할 수 있다.

  1. \(\mathbb{E}(X)= \int_{\mathbb{R}} xd\mu_X=\int_{[0,2\pi)}xd\mu_X(x)\)
  2. \(\mathbb{E}(X)= \int_\Omega X(\omega)dP(\omega)=\int X dP\)

- 정의: \(X\)가 확률공간 \((\Omega,{\cal F},P)\)에서 정의된 확률변수라고 할때 그 기대값 \(\mathbb{E}(X)\)는 아래와 같이 정의한다.

\[\mathbb{E}(X) = \int_{\Omega} X dP\]

여기에서 \(X\)는 이산형, 연속형, 혼합형등 어떠한 형태의 확률변수라도 상관없다. 위의 기대값은 항상 아래와 같이 표현할 수 있다.

\[\mathbb{E}(X) = \int_{\mathbb{R}} x d\mu_X:=\int_{\mathbb{R}} x dF_X\]

만약 \(F_X\)가 절대연속인 경우 (즉 \(\mu_X << \lambda\) 인 경우) 아래와 같이 표현가능하다.

\[\mathbb{E}(X) = \int_{-\infty}^{\infty} xf_X(x)dx\]

만약에 \(F_X\)가 countable한 jump로만 구성되어 있다면 \(\mu_X\)는 jump point에서 support로 가지는 수정된 \(\#_X\)에 대하여 절대연속이 되며 (즉 \(\mu_X << \#_X\)) 이 경우 기대값은 아래와 같이 표현가능하다.

\[\mathbb{E}(X) = \sum_{x}x p_X(x)\]

여기에서 \(f_X(x)\)\(p_X(x)\)는 각각 확률변수 \(X\)의 pdf, pmf가 된다. (혹은 \(\lambda\)\(\#_X\)에 대한 라돈니코딤 도함수)

- 요약

  • 학부수준: 연속형확률변수의 기대값과 이산형확률변수의 기대값이 서로 다르게 정의된다.
  • 대학원수준: 두 경우 모두 \(\mathbb{E}(X) = \int X dP\)로 정의된다.

마무리

- 한 학기동안 수고하셨습니다.

- 강의의 의의

  1. 확률론8은 LLN, CLT 등을 엄밀하게 다루며9 이는 다른 통계 모든 과목을 이해하는데 밑바탕이 된다.

  2. 그런데 그 확률론을 잘 이해하기 위해서는 해석학,실해석학(=측도론)을 중심으로 위상수학, 대수, 집합론 등 수학 전반에 대한 폭넓은 이해가 필요하다. 따라서 확률론을 원활하게 이해하기 위한 예비과정을 선행하기는 수학과 학생이 아니면 거의 불가능하다.

  3. 본 교과의 목표는 이러한 수학적지식과 기초확률론을 소개함으로써 (1) 통계학과에서 필요한 여러 수학이론을 리뷰하고 (2) 확률, 확률변수, 기대값등을 엄밀한 언어로 재정의한다.

- 강의를 만든 진짜 목적: 공부를 할때 필요한 언어를 소개.

  • 공부를 할 때 내가 이해할 수 있는 언어가 많을 수록 유리함.
  • 예를들어 한국어만 읽을 수 있고 영어를 전혀 할 줄 모른다면 공부를 하기 힘듦. 내가 R코드만 이해할 수 있고 파이썬코드는 이해할 수 없다면 특정분야의 기술을 습득하는데 한계점이 존재함.
  • 경험1: 어떠한 증명을 위해서 다른 논문을 참고할 일이 있었는데 제목만 영어로 되어있고 내용을 보니 러시아로 되어있었음. (그래도 식만보면서 울면서 읽었음) 너무 힘들었음.
  • 경험2: R만 써서 박사학위 받았는데, 다른 연구하려고 참고자료를 찾아보니 다 파이썬으로 구현해놓음. 그래서 R로 구현된 코드를 찾으려 시도했으나 없어서 포기하고 내가 파이썬을 배웠음.
  • 경험3: 통계학 관련 공부나 연구활동을 할때마다 이상한 수학용어 및 기호때문에 막히는 적이 많았음. 그래서 쉬운언어로 쓰여진 책을 찾아서 공부하려다가 포기하고 내가 수학을 배웠음.

- 경험3의 예시: Appendix

  • 생존분석 강의노트: 갑자기 라돈니코딤 도함수..
  • WGAN: 꼭 이렇게 쓸 필요가 있었을까? 싶음. 그렇지만 이건 논문 쓰는 사람 마음이지 않을까? (이 사람은 이게 편할 수 있으니까)
  • 시계열교재: 이 한줄 때문에 고생좀 했어요
  • 기타등등 무수히10 많음~

- 학습 및 연구에 필요한 언어를 배우는 것이 어려운점

  1. 시계열분석, 공간자료분석, 텍스트마이닝과 같이 “데이터”가 중심이 되는 다른 교과목과 다르게 독학이 어렵다. 즉 쪽집게처방(pinpoint remedy)을 독학하는 것은 수월하지만 상대적으로 이론교과를 독학하는 것에는 시간이 오래 걸린다.
  2. 독학할 교재가 마땅치 않다. (통계에 잘쓰이는 영어가 따로 있고, 통계에 잘 쓰이는 파이썬 패키지가 따로 있으며, 통계에 잘 쓰이는 수학이 따로 있음) 그래서 여러교재를 참고해야 한다.
  3. 교재들과의 연결, 그리고 본인연구와의 연결은 스스로 해야한다.

- 본인만의 무기: 흡수가능한 것은 무기가 될 수 없음.

  • 전제: 경쟁상대를 통계학과에서 한정짓지 말것
  • 경험1: 코드를 못 짜는 사람 -> 잘하는 사람 옆에서 4~5년 지내면 잘해짐
  • 경험2: 데이터를 읽는 센스 + 시각화에 대한 감각이 없는 사람 -> 잘하는 사람 옆에서 4~5년 지내면 잘해짐11
  • 경험3: 논문을 못 읽는 사람 -> 평생 못 읽음. CS출신은 WGAN와 같은 논문을 원문으로는 평생 읽을 수 없다고 생각함.
  • 저의 무기:

Appendix

- 생존분석 강의노트

- WGAN

- 시계열교재